Penanganan Imbalanced Dataset untuk Klasifikasi Komentar Program Kampus Merdeka Pada Aplikasi Twitter
نویسندگان
چکیده
Imbalanced dataset merupakan hal yang sering ditemukan secara alami dalam proses penambangan data. Kondisi ini sangat mempengaruhi keakuratan klasifikasi data seperti terjadi komentar program Kampus Merdeka peneliti lakukan. Penelitian akan fokus pada penanganan untuk meningkatkan kinerja berasal dari aplikasi Twitter. Data diklasifikasikan ke empat kelas yaitu 0 (untuk informasi), 1 opini), 2 pertanyaan), dan 3 out of topic). Metode digunakan balancing adalah Undersampling, Oversampling menggunakan SMOTE ADASYN, serta Random Combination Sampling. Evaluasi performa dilakukan algoritma Support Vector Machine (SVM) dengan perbandingan komposisi training testing 80:20. pembobotan Term Frequency-Inverse Document Frequency (TF-IDF) nilai max_features 3000, 5000, 7000. Hasil pengujian awal menunjukan bahwa akurasi F1-score berurut-urut 0,7 0,7. Sedangkan metode dapat F1-score, kecuali penerapan Undersampling. terbaik ditunjukan oleh ADASYN sebesar 0,9 0,9. Penggunaan TF-IDF juga hasil klasifikasi, jumlah 5000.
منابع مشابه
Watermarking pada Video: Robustness, Impercetibility dan Pendekatan untuk Domain Terkompresi
ABSTRAK Meningkatnya penggunaan dokumen digital khususnya multimedia (citra, audio, video) dan kemudahan transmisi data melalui Internet meningkatkan kebutuhan terhadap keamanan data terhadap pelanggaran hak cipta. Watermarking merupakan pendekatan yang telah banyak digunakan dan merupakan bagian dari Digital Right Management (DRM) yang dibuat untuk memenuhi kebutuhan tersebut. Khusus untuk vid...
متن کاملKlasifikasi Data Cardiotocography Dengan Integrasi Metode Neural Network Dan Particle Swarm Optimization
Backpropagation (BP) adalah sebuah metode yang digunakan dalam training Neural Network (NN) untuk menentukan parameter bobot yang sesuai. Proses penentuan parameter bobot dengan menggunakan metode backpropagation sangat dipengaruhi oleh pemilihan nilai learning rate (LR)-nya. Penggunaan nilai learning rate yang kurang optimal berdampak pada waktu komputasi yang lama atau akurasi klasifikasi yan...
متن کاملThe Development of Semantic Web to Search Student Final Study Collections (Work Practice and Final Project)
1. H. F. Gunawan, “Penerapan Web Semantik Untuk Aplikasi Pencarian Pada Repositori Koleksi Penelitian ,Studi Kasus : Program Studi Sistem Informasi Stmik Mikroskil Medan,” vol. 15, no. 1, pp. 51–60, 2014. 2. I. A. S. Wicaksono, N. Charibaldi, and H. Jayadianti, “Penerapan Teknologi Semantic Web untuk Menentukan Pilihan Jalur Bis Trans Jogja,” Semin. Nas. Inform. 2010 (semnasIF 2010), vol. 2010,...
متن کاملProbabilistic Latent Semantic Analysis (PLSA) untuk Klasifikasi Dokumen Teks Berbahasa Indonesia
Abstrak Salah satu pekerjaan yang ada di dalam mengelola dokumen adalah bagaimana menemukan intisari dari dokumen. Topic modeling merupakan teknik yang dikembangkan untuk menghasilkan representasi dokumen berupa kata-kata kunci dari dokumen. Kata-kata kunci tersebut yang akan digunakan dalam proses pengindeksan serta pencarian dokumen untuk ditemukan kembali sesuai kebutuhan pengguna. Pada pene...
متن کاملKlasifikasi Komponen Argumen Secara Otomatis pada Dokumen Teks berbentuk Esai Argumentatif
Abstrak Dengan pengenalan argumen secara otomatis dari dokumen teks, penulis esai dapat melakukan inspeksi pada teks yang mereka tulis. Hal ini akan membantu penilaian esai secara lebih objektif dan tepat karena penilai esai akan melihat seberapa baik komponen argumentasi terbentuk. Beberapa peneliti mencoba untuk melakukan pendeteksian dan klasifikasi argumen serta penerapannya pada berbagai d...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ژورنال
عنوان ژورنال: Edu Komputika Journal
سال: 2023
ISSN: ['2599-297X', '2252-6811']
DOI: https://doi.org/10.15294/edukomputika.v9i2.61854